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摘要 : [目的 /意义 ] 从 知识 主题 的 角度 切入 ,建立 全 面 的 课程 知识 体系 ,解决 现 有 课程 体系 设计 和 教学 中 
的 课程 间 知 识 点 重复 及 “知识 孤岛 ”问题 ,从 而 有 效 开 展 专业 知识 服务 。[ 方法 “过程 ] 以 临床 医学 专业 主干 课 
程 为 研究 对 象 , 基 于 医学 主题 词 表 、 电 子 教材 、 电 子 教案 等 医学 教育 数据 ,通过 LDA 模型 挖掘 课程 中 的 知识 主 
题 ,利用 关联 分 析 揭 示 课 程 间 、 知 识 主 题 间 及 课程 与 知识 主题 间 的 细 粒 度 关联 ,从 而 构建 临床 医学 课程 知识 主 
题 图 谱 。[ 结果 /结论 ] 研 究 从 专业 课程 体系 与 知识 主题 视角 构建 出 领域 知识 图 谱 , 有 助 于 教学 管理 人 员 及 师 生 
掌握 专业 知识 体系 ,开展 知识 导向 型 教学 活动 ,推进 医学 领域 知识 组 织 与 服务 及 智慧 医学 教育 发 展 。 
三 关键 词 : 课程 知识 主题 图 谱 ”知识 图 谱 LDA 关联 分 析 临床 医学 
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在 医学 类 课程 的 学 习 过 程 中 ,往往 涉及 许多 知识 
互通 的 现象 ,课程 与 知识 点 之 间 的 学 习 存 在 一 定 的 层 
疯 硕 序 ,在 学 习 新 知识 时 需要 结合 以 往 学 过 的 知识 作 
海神 充 。 但 医学 类 学 科 现 有 的 课程 体系 设计 存在 课程 
和 知识 点 重复 .课程 学 习 中 存在 有 关 知 识 主题 的 “ 知 
识 饭 岛 "等 问题 ,教师 难以 有 效 组 织 专业 知识 体系 教学 
汪 通 ,学 生 无 法 快速 定位 与 现 学 知识 点 相关 的 内 容 。 
因 叱 ,如 何 避 免 知 识 点 的 重复 .聚焦 关键 核心 知识 点 ， 
建立 起 整个 学 科 专业 的 体系 知识 结构 ,是 医学 专业 相 
关 &N 员 的 一 大 需求 ,也 是 科学 设置 课程 .优化 课程 体 
系 .深化 知识 组 织 与 服务 玻 需 解决 的 重要 基础 教育 技 
术 问 题 。 

临床 医学 专业 是 一 门 实践 性 很 强 的 应 用 科学 专 
业 , 致 力 于 培养 具备 基础 医学 ,临床 医学 的 基本 理论 和 
医疗 预防 的 基本 技能 ,能 在 医疗 卫生 单位 .医学 科研 等 
部 门 从 事 医疗 及 预防 .医学 科研 等 方面 工作 的 医学 高 
级 专门 人 才 呈 。 临 床 医学 专业 课程 包括 解剖 学 生理 
学 .内 科学 、 外 科学 等 多 门 课程 ,知识 点 多 ,体系 庞大 ， 


业 知识 服务 。 


课程 体系 建设 是 促进 教育 改革 与 发 展 的 重要 抓 
手 ,因此 ,对 课程 体系 的 研究 一 直 是 教学 改革 的 热门 
所 在 。 对 于 课程 体系 中 的 知识 点 重复 及 “知识 孤岛 ” 
问题 ,许多 学 者 探讨 了 其 解决 方法 。 胡 文 韬 ”基于 知 
识 图 谱 , 对 学 生 从 学 习 目 标 开始 到 学 习 路 径 构 建 过 程 
中 的 课程 选择 和 课程 排序 进行 研究 ,试图 建立 课程 间 
的 联系 ,发 现 课 程 的 知识 结构 ,从 而 解决 学 生 在 学 习 过 
程 中 的 信息 过 载 和 知识 迷航 问题 。 叶 春 森 等 依据 知 
识 管理 理论 ,提出 基于 知识 地 图 的 知识 集成 模式 ,为 降 
低 知识 内 耗 、 控 制 知 识 集 成 过 程 消除“ 知识 孤岛 ” 提 
供 了 新 方法 。 郑 宁 ' 基 于 自然 语言 处 理 技术 获取 算法 
知识 名 称 并 构建 本 体 来 识别 网 络 程序 资源 中 的 算法 知 
识 点 ,从 而 将 海量 网 络 程序 资源 按 知 识 结 构 组 织 起 来 ， 
解决 其 中 存在 的 “知识 孤岛 "现象 。 在 课程 体系 架构 
及 建设 方面 , 商 玮 等 "| 借鉴 基于 工作 过 程 的 课程 开发 


因此 需要 建立 全 面 的 课程 知识 体系 ,从 而 有 效 开 展 专 


思路 与 CDIO 工程 教育 模式 ,在 融入 教学 工厂 理念 的 
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图 二 情报 三 作 
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基础 上 构建 了 TF-CDIO 电子 商务 专业 课程 体系 ,周明 
等 中 研究 了 大 数据 视角 下 信息 管理 专业 课程 体系 的 创 
新 建设 ,提出 从 大 数据 发 展 的 角度 着 手 寻 找 专业 特色 ， 
构建 新 的 课程 体系 。 就 临床 医学 专业 而 言 , 李 莉 等 ” 
分 析 了 医疗 大 数据 的 价值 与 教学 之 间 的 关系 ,认为 临 
床 大 数据 的 应 用 将 改变 传统 的 眼科 临床 教学 体系 。 
然而 ,课程 是 知识 主题 的 组 织 形式 ,知识 主题 是 课 
程 的 核心 内 容 ,课程 体系 的 建设 与 利用 必须 建立 在 对 
专业 知识 体系 的 深度 挖 据 与 全 盘 掌握 基础 之 上 。R. 
J Todd “研究 了 学 生 如 何 利 用 现 有 的 课程 知识 主题 
将 发 现 的 信息 转 为 个 人 知识 ,并 绘制 和 衡量 学 生 对 课 
程 主题 知识 的 变化 。 朱 珂 等 "使 用 主题 图 技术 对 单 
个 网 络 课程 知识 组 织 方式 进行 重组 ,对 知识 点 进行 多 
米 麻 ,多 层次 的 组 织 , 实 现 网 络 课程 知识 点 语义 关联 和 
智通 分 类 ,为 个 性 化 学 习 等 学 习 模式 提供 支持 。E， 
Melis 等 开发 了 一 种 基于 网 络 的 通用 学 习 系 统 Ac- 
tiG8Math 来 为 每 个 知识 主题 构建 学 习 资料 , 即 由 学 习 者 
先世 目标 知识 主题 ,系统 为 知识 主题 选择 相关 资料 ,从 
而 站 学 习 者 生成 整个 课程 。 
轨 综 上 所 述 ,虽然 有 部 分 学 者 在 研究 课程 体系 时 研 
完 NJ 知 识 主题 的 获取 与 表达 ,但 尚未 见 从 知识 主题 切 
/GE 禾 课程 体系 与 知识 主题 形成 映射 图 谱 , 并 对 课程 与 
向 训 主题 之 间 的 定量 关系 进行 研究 ,因此 本 研究 对 临 
床 任 学 教育 数据 进行 深度 挖掘 ,利用 LDA 模型 挖掘 课 
程 息 的 知识 主题 ,关联 分 析 法 揭示 课程 间 、 知 识 主题 间 
及 课程 与 知识 主题 间 的 细 粒 度 关联 ,从 专业 课程 体系 
与 知识 主题 视角 来 研究 与 构建 临床 医学 课程 知识 主题 
图 蚁 ,有 助 于 教学 管理 人 员 及 师 生 掌 握 专业 知识 体系 ， 
开展 知识 导向 型 教学 活动 ,推进 医学 领域 知识 组 织 点 
服务 及 智慧 医学 教育 发 展 。 


2 临床 医学 课程 知识 主题 图 谐 模型 


构建 


临床 医学 课程 知识 主题 图 谱 模 型 主要 包括 3 个 子 
模块 :中 临床 医学 教育 数据 预 处 理 。 主 要 对 研究 所 需 
数据 进行 收集 分词 及 去 停 用 词 等 操作 ,从 而 得 到 模型 
的 输入 文件 。@LDA 主题 挖掘 。 利 用 LDA 算法 挖掘 
出 文本 中 的 知识 主题 。@ 关 联 计算 。 结 合 挖掘 到 的 知 
识 主题 ,计算 主题 词 间 关 联 及 章节 与 知识 主题 间 的 关 
联 度 权 重 等 。 

2.1 临床 医学 教育 数据 预 处 理 

预 处 理 过 程 是 针对 临床 医学 课程 原始 文本 进行 加 

工 , 如 医学 主题 词 表 、 电 子 教 材 . 电 子 教 案 等 医学 教育 
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数据 ,最 终生 成 LDA 主题 挖掘 所 需要 的 数据 格式 。 临 
床 医学 教育 数据 预 处 理 模块 的 具体 流程 如 图 1 所 示 : 


本 DA 
本 上 划分 音节 zx 分 词 去 停 用 词 | 
1 临床 医学 教育 数据 预 处 理 流程 


2.1.1 数据 来 源 与 采集 ”本 研究 通过 调研 武汉 大 学 
临床 医学 (五 年 制 ) 本科 人 才 培 养 方案 及 其 课程 体 
系 ,选取 该 专业 14 门 主干 课程 作为 研究 对 象 , 课 程 
包括 解剖 学 组 织 胚 胎 学 、 生 理学、 生物 化 学 与 分 子 生 
物 学 药理 学 \ 病 理学、 病理 生理 学 、 医 学 微生物 学 、 医 
学 免疫 学 ,临床 技能 学 .内 科学 .外科 学. 妇 产科 学 和 儿 
科学 ,收集 其 课程 简介 .电子 教材 .电子 教案 .课程 大 纲 
等 课程 资料 ,依据 人 民 卫 生出 版 社 第 八 版 教材 的 目录 
对 课程 章节 进行 划分 ,并 将 对 应 的 课程 资料 转换 为 文 
本 格式 , 共 获 得 385 个 课程 章节 文本 。 

2.1.2 分 词 及 去 停 用 词 ”知识 主题 词 是 本 研究 的 基 
本 单元 ,因此 需要 对 文本 进行 分 词 以 得 到 LDA 算法 的 
输入 文件 。 使 用 Python 爬 取 中 国生 物 医学 文献 数据 
库 '” 中 主题 检索 的 主题 词 作为 分 词 字典 ,整合 “ 哈 工 
大 停 用 词 词 库 "“ 百度 停 用 词 表 ”等 停 用 词 表 ,去 重 后 
得 到 一 份 较为 全 面 的 停 用 词 表 ,采用 开源 中 文 分 词 工 
具 jieba 进行 分 词 , 并 将 分 词 后 文本 按照 之 前 同样 的 方 
式 进行 划分 ,得 到 385 个 分 词 后 的 课程 章节 文本 ,每 个 
章节 文本 即 为 LDA 主题 挖掘 模块 的 输入 文档 。 

2.2 LDA 主题 挖掘 

LDA ( Latent Dirichlet Allocation ) 是 D. M. Blei 
等 “提出 的 一 种 文档 主题 生成 模型 ,包含 词 .主题 
和 文档 三 层 结构 ,可 以 用 来 识别 文档 集中 的 潜在 主题 
信息 。LDA 采用 词 袋 (bag of words ) 方 法 ,将 每 篇 文档 
看 作 一 个 词 频 向 量 ,文档 是 由 者 干 个 主题 混合 组 成 ,每 
个 主题 是 一 个 关于 词 的 概率 分 布 。 对 于 给 定 的 文档 集 
D= 1di,d,,…,d,| ,由 给 定 的 先 验 Dirichlet 分 布 ,得 到 
文档 生成 的 似 然 函数 ,其 过 程 如 下 '" : 

(1) 对 DD 中 的 每 个 文档 d, 由 6, ~ Dirichlet(a) ,得 
到 文档 4 上 主题 的 多 项 式 向 量 0,。 

(2) 对 每 个 主题 ,由 gp. ~ Dirichlet(B) ,得 到 主题 z 
上 的 词汇 的 多 项 式 向 量 p.。 

(3) 对 文档 4 中 的 词汇 mw， ,生成 一 个 主题 服从 
参数 为 9, 的 多 项 式 分 布 ,根据 特定 的 主题 比例 B, 生 成 
词汇 wi; 的 概率 分 布 P(w, ,1z;,B)。 

对 文档 集 D,LDA 主题 抽取 过 程 可 以 总 结 为 根据 0 
和 z, 求 出 使 P(Dla,B) 最 大 的 参数 a 和 B ,其 中 : 
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P(D | a,B)=P(0,z | a,B8)=P(0 | a) HP(z 
| 9) Pl(w, | z,,B) 公式 (1) 

采用 Gibbs 抽样 ”对 上 述 公 式 中 的 隐 含 变量 进行 
参数 推断 ,从 而 计算 后 验 概率 。Gibbs 抽样 过 程 中 得 到 
主题 一 主题 词 和 文档 一 主题 两 个 矩阵 ,将 其 与 P(z | 
z,,w; ) 循环 迭代 计算 , 当 数 值 收敛 时 的 分 布 即 主题 的 对 
应 分 布 。 根 据 和 = 则 可 得 到 文档 中 每 个 主题 的 概率 
分 布 及 主题 中 每 个 主题 词 的 概率 分 布 。 通 过 概率 计算 
则 可 得 到 每 个 文档 中 的 知识 主题 词 。 

LDA 主题 挖掘 模块 基于 LDA 算法 对 预 处 理 得 到 
的 文本 进行 主题 挖掘 ,能 够 利用 文档 的 潜在 语义 信息 
得 到 知识 主题 词 。 朱 泽 德 等 的 研究 也 表明 基于 
LDA 的 关键 词 抽 取 方法 能 够 较 好 地 避免 将 常用 词 作为 
关键 词 ,并 解决 词 未 能 全 面 准 确 覆盖 文档 主题 信息 的 
问题 ,提高 关键 词 抽取 的 准确 率 。LDA 主题 挖 据 模块 


d, 其 中 的 主题 5 权重 为 vw,z 中 主题 词 w 权重 为 v, 则 
主题 词 w 在 文档 4 中 的 最 终 权 重 为 w xv ,对 每 个 词 
的 权重 进行 排序 ,将 权重 大 于 等 于 设置 装 值 的 词 作为 
文档 的 主题 词 ,在 本 实验 中 设置 权重 闵 值 为 0.008 能 
够 达到 较 理 想 的 效果 。 

按照 上 述 参数 设置 及 规则 进行 一 次 计算 后 ,得 到 
每 个 文档 中 符合 条 件 的 知识 主题 词 , 共 有 385 个 章 
节 一 知识 主题 词 文档 ,每 个 文档 记录 了 对 应 章节 的 知 
识 主 题词 。 但 由 于 LDA 算法 生成 主题 词 是 一 个 随机 
过 程 ,每 次 计算 得 到 的 知识 主题 词 有 细微 差异 ,因此 需 
要 进行 多 次 迭代 实验 ,观察 得 到 的 主题 词 效果 。 和 迭代 
方法 如 下 : 

(1) 对 DD 中 的 文档 d, 首 次 计算 得 到 的 知识 主题 词 
集合 为 wi ,按照 规则 再 次 计算 得 到 的 知识 主题 词 集合 为 
w, ,更 新 d 的 知识 主题 词 为 两 者 的 并 集 , 即 w =w Uw,。 

(2) 重 复 第 一 步 的 计算 n 次 ,直到 每 个 文档 的 w 

中 不 加 入 新 词 ,达到 稳定 状态 。 
本 研究 经 过 7 次 迭代 实验 ,每 个 文档 的 


知识 主题 词 集合 达到 稳定 状态 。 然 后 ,随机 


的 基体 过 程 如 图 2 所 示 : 
(© 
© Gibbs 抽样 
名 
文档 
a 
©O 
CN 2 LDA 主题 挖掘 流程 


加 国 
mm 


.全 本 研究 的 主要 目的 是 得 到 文档 中 的 知识 主题 词 ， 
S| a 2 Mts A Zl 
进行 主题 分 类 ,因此 参考 唐 晓 波 等 ”对 微 博 热 


抽取 50 个 文本 ,对 照 该 章节 的 教学 大 纲 观 
察 得 到 的 知识 主题 词 ,发 现 挖掘 得 到 的 结果 
能 够 作为 该 章节 主题 的 概括 。 

在 得 到 每 个 文档 的 知识 主题 词 后 ,考虑 
到 LDA 算法 会 挖掘 出 一 些 非 知识 主题 词 , 且 
大 部 分 知识 主题 词 应 为 名 词 ,因此 为 确保 主题 词 的 可 
用 性 及 可 靠 性 ,本 研究 结合 《现代 汉语 动词 表 》 对 提取 


点 挖掘 的 参数 设置 ,每 篇 文档 提取 出 的 主题 数 为 = 
10 忆 根据 文献 调研 ”” 及 经 验 值 确定 a 和 p 的 取 值 ， 
设 贿 a =50/4,B = 0. 01。Gibbs 循环 迭代 抽样 的 最 大 
次 数 设 为 1 000 次 。 实 验 结 果 表明 以 上 参数 设置 在 文 
档 集 中 有 较 好 的 表现 。 然 后 ,根据 得 到 的 主题 一 主题 
词 和 文档 一 主题 两 个 矩阵 ,对 主题 词 进行 筛选 ,筛选 规 


Ny 


出 的 知识 主题 词 进行 去 动词 处 理 , 改 进 LDA 主题 挖掘 
的 效果 。 最 终 得 到 每 个 章节 的 知识 主题 词 ,形成 临床 
医学 课程 知识 主题 的 章节 一 知识 主题 词 多 对 多 有 映射 矩 
阵 ,揭示 出 章节 中 包含 的 知识 主题 及 知识 主题 覆盖 的 
章节 ,最 终 得 到 1 696 个 不 重复 的 知识 主题 词 。 表 1 显 


则 为 :对 于 文档 集 忆 = | di ,qd,,… ,dss | 中 的 每 个 文档 示 了 部 分 章节 的 知识 主题 词 信息 。 
表 1 部 分 章节 知识 主题 词 
章节 编号 章节 名 称 所 属 课程 知识 主题 词 

1 疾病 概论 病理 生理 学 亚 健康 ,发病 学 .神经 机 制 .体液 机 制 ,病因 学 、 先 天性、 免疫 性 , 转 归 

50 循环 系统 疾病 L 科 学 儿科 血液 .循环 系统 心脏 、 先 天 性 心脏 病 动脉. 血管 .心房 .静脉 

100 盆 部 与 会 阴 解剖 学 盆 部 会阴, 骨盆、 盆 壁 肌 、 贫 腔 脏 器 、 盆 筋 膜 . 筋 膜 间隙 . 虹 管 

150 能 量 代谢 与 体温 生理 学 能 量 、 代 谢 . 体 温 、 血 糖 . 缺 氧 .肌肉 蛋白质. 脂肪 、 产 热 

200 鼎 内 和 椎 管内 肿瘤 外 科学 外 科 \ 鼎 内 肿瘤 、 椎 管内 肿瘤 . 胶 质 瘤 .脑膜 瘤 . 听 神经 痛 .垂体 瘤 、. 淋 巴 痛 
2.3 关联 计算 主题 词 的 Wx N 共 现 矩阵 ,根据 共 现 矩阵 进行 关联 分 


在 得 到 课程 知识 主题 的 多 对 多 映射 矩阵 的 基础 
上 ,对 刘 个 知识 主题 词 统计 共 现 的 文本 频数 ,形成 知识 


析 ,从 而 揭示 课程 间 细 粒度 知识 主题 关联 。 关 联 计算 
模块 主要 对 主题 一 主题 关联 、 主 题 一 章节 关联 和 章 
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节 一 音节 关联 三 个 方面 进行 计算 。 

2.3.1 主题 一 主题 关联 计算 ”关联 分 析 是 知识 发 现 
的 一 种 手段 ,可 以 量化 地 描述 物品 A 的 出 现 对 物品 B 
的 出 现 有 多 大 的 影响 ,通常 用 于 事务 数据 库 如 销售 
数据 中 。 将 关联 分 析 应 用 于 医学 领域 ,可 以 从 繁杂 的 
医学 资料 中 挖掘 出 有 价值 的 信息 。 张 蛤 等 "应 用 关 
联 规则 算法 分 析 抗 肿瘤 药物 主题 词 和 副 主 题词 组 配 模 
式 ,抽取 出 主题 词 的 依存 关系 及 五 类 药物 相关 的 语义 
关系 组 合 。 如 某 篇 关于 药物 治疗 的 文献 标 引 中 , 包含 
“ 病 A/ 药 物 治疗 ” 主题 词 的 同时 也 存在 “ 药 B/ 治 疗 应 
用 ”主题 词 , 则 表明 药 B 可 能 具有 治疗 病 A 的 功效 。 
因此 对 于 本 研究 的 课程 知识 主题 数据 ,一 个 课程 章节 
可 以 看 作 是 一 个 事务 T, 由 多 个 知识 主题 词 的 项 集 组 
一 为 得 到 知识 主题 词 之 间 的 语义 关联 ,可 以 对 其 共 
现 得 阵 进行 关联 分 析 , 挖 掘 出 满足 一 定 支持 度 和 可 信 
度 条 件 下 的 频繁 出 现在 一 起 的 知识 主题 词 "3 。 
主题 一 主题 关联 计算 基于 Apriori'" 算法 。 对 
专 主题 挖掘 模块 得 到 的 385 个 知识 主题 词 文本 及 
1695 个 知识 主题 词 :首先 统计 每 个 知识 主题 词 出 现 的 
次 慌 数 ,如 得 到 A 词 和 B 词 出 现 的 文本 数 分 别 为 C, 和 
C 全 再 根 据 共 现 和 矩阵 得 到 每 个 词 对 14,B1 在 所 有 文本 
呈现 的 文本 总 数 Cn。 对 每 个 有 向 词 对 14-B| ,得 
到 起 


过 持 度 大 于 等 于 最 小 支持 度 ,可 信 度 大 于 等 于 最 小 
可 入 度 , 同 时 作用 度 大 于 1 的 关联 规则 中 。 
支持 度 描 述 词 A 和 词 B 在 所 有 文本 中 同时 出 现 
的 慨 率 ,计算 公式 为 ， 
"ESupport( 4»B) =P(ANB) = Cas/385 公式 (2) 
GO 可 信 度 描述 出 现 词 A 的 文本 ,同时 也 出 现 词 B 的 
概率 ,计算 公式 为 : 
Confidence(4 一 B) =P(BIA) = Cng/ Ca 公式 (3) 
作用 度 描 述 词 A 对 词 B 的 影响 程度 ,作用 度 大 于 
1 则 是 正 相 关 ,计算 公式 为 : 
0 公式 (4) 
在 本 研究 中 ,最 小 支持 度 取 0.002 ,最 小 可 信和 度 取 
0.5。 根据 上 述 算法 计算 , 共 得 到 12 055 条 强 关 联 规 
则 ,描述 了 一 个 知识 主题 词 对 男 一 个 知识 主题 词 的 单 
向 关联 度 。 在 本 研究 中 定义 主题 一 主题 之 间 的 关联 类 
型 有 三 种 , 即 基 础 关系 、 进 阶 关 系 和 同 级 关系 ,根据 关 
联 计算 的 结果 ,在 得 出 的 所 有 关联 规则 中 ,有 以 下 3 种 
(1) 若 词 对 14 ,8 只 存在 一 条 关联 规则 , 即 4 一 B， 
可 信 度 为 x, 说 明 主题 词 A 影响 主题 词 B 的 出 现 , 因 此 


Lifi( A—B) = 
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定义 A 为 B 的 基础 主题 ,B 为 A 的 进 阶 主题 , 即 在 学 习 
主题 词 B 之 前 需要 先 具 备 主题 词 A 的 知识 ,学 习 主 题 
词 A 之 后 可 以 去 继续 学 习 主 题词 B 的 知识 。 

(2) 若 词 对 14 ,8 存在 两 条 关联 规则 , 即 存在 4 一 
B, 可 信和 度 为 x, 又 存在 BA ,可 信和 度 为 y, 且 x>y, 则 说 
明 主 题词 A 对 主题 词 B 出 现 的 影响 大 于 主题 词 B 对 
主题 词 A 出 现 的 影响 ,因此 舍弃 B 一 A 这 条 规则 ,定义 
A 为 B 的 基础 主题 ,B 为 A 的 进 阶 主题 ;反之 若 x <y， 
则 B 为 A 的 基础 主题 。 

(3) 若 词 对 14,B| 存 在 两 条 关联 规则 , 即 存 在 4 一 
B, 可 信和 度 为 x, 又 存在 BA ,可 信和 度 为 y, 且 x=y, 则 说 
明 主 题词 A 与 主题 词 B 具有 同等 影响 ,因此 合并 两 条 
规则 ,定义 A 和 B 为 同 级 主题 , 即 主题 词 A 和 主题 词 B 
可 以 并 行 学 习 。 

根据 上 述 规则 和 主题 间 的 三 种 关系 ,对 12 055 条 
关联 规则 进行 删除 及 合并 后 ,得 到 8 933 条 有 效 关联 ， 
其 中 同 级 关系 6 632 条 ,基础 关系 和 进 阶 关系 2 301 
条 。 如 表 2 显示 了 “病因 学 ”与 其 他 知识 主题 词 的 关 


七 “病因 学 ”与 其 他 知识 主题 词 的 关系 


关系 知识 主题 词 
进 阶 关系 ”发 病 学 、 免 疫 
基础 关系 ”分子 机 制 \ 死 亡 \ 体 液 机 制 神 经 机 制 \ 组 织 细胞 机 制 先天 性 、 和 脑 
死亡 、 亚 健康 
同 级 关系 ” 转 归 ,症状 


2.3.2 主题 一 章节 关联 计算 “主题 一 章节 关联 揭示 
章节 中 各 个 主题 所 占 权 重大 小 , 即 知识 主题 词 的 重要 
程度 ,计算 基于 TFJDF 算法 '” 。 对 385 个 包含 知识 主 
题词 文本 ,首先 计算 每 个 主题 词 相对 于 385 个 章节 的 
IDF( 逆 文 本 频率 指数 ) 值 ,对 于 主题 词 i, 包 含 i 的 文本 
总 数 为 df , 则 :IDF(i) =log (385/df) ;然后 ,计算 主题 
词 i 在 经 过 预 处 理 模 块 后 的 对 应 章节 文本 j 中 的 TF 
( 词 频 ) 值 ,并 根据 本 研究 的 特点 进行 归 一 化 处 理 , 即 
TF(i,j) = NAN, 其 中 N. 为 主题 词 ; 在 文本 7 中 出 现 
的 次 数 ,w 为 文本 7 中 的 总 词 数 ; 则 主题 词 站 在 文本 7 
中 的 TFJIDF 值 为 : 

TF -IDF(i,) = TF(i,) * IDF(i) 公式 (5) 

此 外 ,本 研究 还 计算 了 主题 一 课程 关联 ,主题 一 课 
程 关 联 揭示 课程 中 知识 主题 词 的 重要 程度 。 将 385 个 
经 过 预 处 理 模 块 后 章节 文本 按照 课程 合并 ,划分 为 14 
个 文本 ,将 385 个 经 过 LDA 主题 挖掘 模块 后 的 章节 主 
题词 文本 按照 课程 合并 ,并 去 除 重复 主题 词 ,得 到 14 
门 课程 中 的 知识 主题 词 文本 。 主 题 一 课程 关联 与 主 
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题 一 章节 关联 计算 方法 类 似 , 计 算 每 个 主题 词 相 对 于 
14 门 课程 的 IDF 值 和 TF 值 ,并 进行 TF-IDF 的 计算 与 
归 一 化 。 

2.3.3 章节 一 课程 关联 计算 “章节 一 课程 关联 揭示 
课程 中 各 章节 的 重要 程度 。 从 逻辑 层面 上 将 ,章节 的 
知识 主题 词 可 以 看 作对 章节 内 容 的 高 度 凝练 ,因此 章 
节 一 课程 关联 计算 建立 在 主题 一 课程 关联 计算 的 基础 
上 。 对 于 每 一 章节 ,计算 其 包含 的 所 有 主题 词 在 所 属 
课程 中 的 TF-IDF 值 之 和 ,将 求 和 结果 除 以 章节 包含 的 
主题 词 数 进行 平均 化 处 理 。 对 于 课程 c 的 章节 广 章 节 
7 中 包含 主题 词 个 数 为 ", 则 章节 7 在 课程 “ 中 的 权重 
为 : 


号 公式 (6) 
全 在 得 到 课程 。 的 所 有 章节 权重 后 ,对 章节 / 的 权重 
进 每 归 一 化 处 理 ， 归 一 化 方式 为 章节 的 7 权重 值 除 以 
谈 课 程 全 部 章节 的 权重 值 之 和 ,课程 。 中 包含 上 个 章 
折 则 总 入 j 在 课程 。 中 的 最 终 权重 为 : 


wlj,e) = 


w(],c) 
本 (有 本 SD 


外 章节 一 章节 关联 计算 ”由 于 知识 主题 词 是 对 


~weight (je) = 


成 次 节 的 高 度 凝 练 ,因此 章节 一 章节 关联 计算 建立 在 
折 是 一 主题 关联 计算 的 基础 上 。 通 过 计算 两 个 章节 间 
所 有 有 主题 词 的 关联 度 之 和 ,并 根据 两 个 章节 间 可 能 存 
在 网 关联 规则 数 将 其 平均 化 , 即 可 用 来 表示 对 应 的 章 
节 S 章 节 关联 。 假 设 章节 A 有 < 个 知识 主题 词 , 章 节 


B. 短 ;个 知识 主题 词 , 两 个 章节 的 知识 主题 词 中 共 出 
现 z 条 关联 规则 ,每 条 规则 的 可 信 度 为 ,提出 章节 人 
与 章节 B 的 关联 权重 计算 公式 为 : 
4) = 公式 (8) 
由 上 述 公 式 计算 得 到 所 有 章节 一 章节 关联 度 , 并 
按照 关联 度 由 高 到 底 的 顺序 格式 化 数据 ,总 结 归纳 出 
每 个 章节 的 关联 章节 。 


通过 对 武汉 大 学 临床 医学 五 年 制 的 培养 方案 和 课 
程 体系 的 调研 ,本 研究 选取 的 14 门 专业 主干 课程 可 以 
分 为 基础 医学 课程 .过渡 课 程 和 临床 医学 课程 三 类 ,其 
具体 包含 的 课程 如 表 3 所 示 。3 种 类 型 课程 存在 偏 序 
有 向 性 ,课程 之 间 的 学 习 具 有 一 定 的 逻辑 和 时 间 顺 序 ， 
临床 医学 课程 必须 建立 在 基础 医学 课程 和 过 渡 课 程 已 
学 习 过 的 基础 上 。 


表 3 3 种 类 型 课程 
类 型 课程 
基础 医学 课程 ”解剖 学 .组 织 胚胎 学 .生理 学 .生物 化 学 与 分 子 生物 学 . 药 
基础 医学 ,临床 ”临床 技能 学 
医学 过 渡 课程 
床 医学 课程 ”内 科学 .外 科学 妇 产科 学 儿科 学 


本 研究 则 在 通过 对 课程 资料 中 知识 主题 的 挖掘 和 
分 析 , 来 构建 临床 医学 专业 的 课程 知识 主题 图 谱 , 从 而 
辅助 师 生 直观 了 解 重要 知识 点 ,建立 全 面 的 课程 知识 
体系 ,提高 教学 质量 和 学 习 效果 。 在 挖掘 得 到 临床 医 
学 中 的 知识 主题 词 及 课程 一 章节 一 主题 三 者 间 关 联 
后 ,得 到 主题 词 1 696 个 ,主题 一 主题 关联 8 933 条 , 章 
节 一 主题 关联 4 194 条 ,主题 一 课程 关联 3 308 条 , 章 
节 一 课程 关联 385 条 ,章节 一 章节 关联 16 120 条 ,以 数 
据 库 文件 形式 构建 临床 医学 课程 知识 主题 知识 库 , 用 
于 存储 研究 中 涉及 的 所 有 数据 。 

在 得 到 临床 医学 课程 知识 主题 知识 库 的 基础 上 ， 
本 研究 采用 力 导 向 图 来 实现 课程 知识 主题 图 谱 结 构 的 
可 视 化 呈现 ,并 利用 百度 开源 工具 Echarts 完成 力 
导向 图 的 创建 。 下 面 从 临床 医学 课程 知识 主题 图 谱 总 
览 .章节 一 章节 关联 .主题 一 主题 关联 3 个 方面 描述 研 
究 结果 。 
3.1 临床 医学 课程 知识 主题 图 谱 总 览 

临床 医学 课程 知识 主题 图 谱 总 体 以 “临床 医学 五 
年 制 ” 节 点 为 中 心 向 外 辐射 为 三 层 ,如 图 3 所 示 , 从 内 
到 外 第 一 层 较 大 的 节点 表示 课程 ,第 二 层 节 点 表示 章 
节 , 第 三 层 叶 子 节点 表示 知识 主题 ,其 中 连 线 代表 课 
程 一 章节 一 主题 三 者 之 间 的 关联 。 

在 图 3 中 仅 显示 权重 较 大 ,关联 较为 密切 的 节点 ， 
能 够 清晰 直观 地 聚焦 核心 知识 点 。 如 在 《内 科学 》 课 
病 ” 和 “ 心 内 科 ”4 个 章节 为 该 课程 的 重点 章节 ,在 “ 心 
内 科 ” 章 节 中 的 重要 知识 主题 词 有 “动脉 “心肌 ”“ 心 
脏 ”" 和 “心室 ” ,同时 可 以 看 到 该 章节 与 《病理 生理 学 》 
的 “心力 衰竭 "章节 及 《临床 技能 学 中 的 “心电图 学 ” 
章节 有 较为 密切 的 关联 。 根 据 课 程 之 间 的 偏 序 有 向 
性 ,在 学 习 “ 心 内 科 ” 之 前 需要 具备 “心力 衰竭 "和 “ 心 
电 图 学 ”章节 的 相关 知识 点 ,其 中 主题 词 “ 心 肌 ” 是 章 
节 “ 心 内 科 ” 和 “心力 衰竭 "共有 的 主题 词 , “心电图 ”是 
章节 “ 心 内 科 ” 和 “心电图 学 ”共有 的 主题 词 。 
3.2 草 节 一 癌 届 关联 

对 于 课程 中 的 一 个 章节 节点 ,图 谱 呈 现 与 该 章节 
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章节 名 称 。 如 图 4 所 示 ,在 《内 科学 ?课程 中 的 
系统 疾病 ”图谱 中 与 其 关联 较 大 的 章节 有 ”内 脏 
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3 临床 医学 课程 知识 主题 图 谱 总 览 


节 与 中 心 点 的 距离 表明 章节 间 的 关联 程度 ,距离 越 近 则 
表示 与 “呼吸 系统 疾病 "章节 关联 程度 越 大 。 具 体 信息 
中 呈现 该 章节 的 章节 简介 .相关 章节 ,重点 主题 等 。 


属性 章节 


章节 名 呼吸 系统 疾病 
介绍 呼吸 系统 的 结构 功能 桂 点 、 常 见 的 


章节 简介 几 种 呼吸 系统 疾病 、 防 治 进展 
支原体 
衣原体 
相关 章节 。 呼吸 系统 疾病 
呼吸 系统 疾病 
肺 
重点 主题 。 气管 
肺炎 
电子 教材 ” 点 此 坦 看 电子 教材 


图 4 “呼吸 系统 疾病 ”相关 章节 及 章节 信息 


3.3 ”主题 一 主题 关联 

对 于 一 个 主题 节点 ,图 谱 呈 现 与 该 主题 相关 的 主 
题名 称 。 如 图 5 所 示 ,对 于 " 哮 跨 ”主题 ,其 基础 主题 有 
“胸廓 “和 急性 上 呼吸 道 感染 “鼻炎 ”支气管 炎 ” 等 ， 
表明 学 习 该 主题 之 前 需要 具备 基础 主题 词 的 知识 ; 进 
阶 主题 为 “肺炎 ”, 肺 炎 可 能 会 引发 哮喘 ,两 者 之 间 既 
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有 区 别 又 有 联系 ,在 学 习 "哮喘 "后 应 继续 了 解 "肺炎 ” 
相关 知识 ; 同 级 主题 为 " 胆 磊 “衣原体 "和 "支原体 ”， 
则 “哮喘 "与 其 不 存在 偏 序 关系 ,可 以 同步 学 习 。 具 体 
信息 中 旦 现 该 主题 的 主题 简介 和 所 属 章节 等 ,儿科 学 
第 12 章 ,内 科学 第 2 章 和 药理 学 第 5 章 都 包含 了 该 主 
题 。 
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本 研究 通过 对 武汉 大 学 临床 医学 五 年 制 专业 主干 
谍 程 的 课程 资料 进行 深度 挖掘, 得 到 临床 医学 课程 间 、 
知 齐 主题 间 及 课程 与 知识 主题 间 的 关联 ,揭示 课程 之 
ee 
题 列 识 库 及 临床 医学 课程 知识 主题 图 谱 , 并 在 此 基础 
上 t 邢 发 查询 系统 进行 知识 图 谱 可 视 化 呈现 ,系统 可 以 
通 :再 网 址 http ://218. 197.150. 149/rainbow 进行 访问 。 

加 在 理论 层面 ,本 研究 将 文本 挖掘 技术 与 情报 学 相 
关 表 论 结合 到 专业 课程 知识 体系 研究 中 ,从 专业 课程 
体系 与 知识 主题 的 角度 来 构建 特定 领域 的 知识 体系 ， 
感 王 有 知识 图 谱 理论 的 有 益 补充 。 在 应 用 层面 ,深入 
sis sh Mme 
课 窒 间 的 知识 壁 件 ,有 助 于 教学 管理 人 员 及 师 生 掌握 

1 识 体系 ,开展 知识 导向 型 教学 活动 。 一 方面 ,本 
研究 成 果 可 以 为 教学 管理 人 员 科 学 管理 专业 知识 体 
系 、 系 统 优化 课程 体系 .辅助 教学 排 课 与 教学 团队 建设 
等 提供 关键 的 理论 与 技术 基础 ; 另 一 方面 ,可 以 将 其 应 
用 于 实际 教学 中 ,对 于 辅助 教师 合理 组 织 专业 知识 点 、 
优化 教学 计划 .提高 教学 质量 ,学 生 深入 理解 课程 之 间 
细 粒 度 知识 主题 关联 合理 规划 和 系统 学 习 , 促 进 广大 
师 生 对 学 科 知识 的 理解 .利用 与 升华 ,对 于 我 国 专业 人 
才 培养 .医学 领域 知识 组 织 与 服务 及 智慧 医学 教育 等 
方面 具有 普遍 意义 与 应 用 价值 。 
本 研究 仍 存在 诸多 不 足 之 处 ,如 在 计算 音节 一 音 
节 关 联 时 , 仅 考 虑 知识 主题 词 共 现 的 关联 规则 ,没有 考 
虑 其 在 两 个 章节 中 的 分 布 特征 ,可 能 无 法 准确 揭示 章 
节 之 间 的 关联 权重 ,因此 可 以 结合 关联 规则 和 主题 词 
分 布 特征 对 算法 进一步 改进 ;另外 ,已 有 的 课程 体系 可 
能 是 不 准确 的 ,可 以 结合 专业 领域 知识 图 谱 ( 如 Linked 


所 属 章节 


主 是 

咏 晴 

哮喘 又 名 支气管 哮喘 。 支 气管 玉 喘 是 由 
多 种 细胞 及 给 胞 组 分 参与 的 慢性 气 道 炎 
症 ， 此 种 炎症 常 伴随 引起 气 道 反 应 性 增 
高 导致 反复 发 作 的 喘息 、 气 促 、 胸 问 
和 ( 或 ) 咳 喇 等 症状 ， 多 在 夜间 和 
(或 ) 凌晨 发 生 ， 此 类 症状 常 伴 有 广泛 
而 多 变 的 气流 阻塞 ， 可 以 自行 或 通过 治 
疗 而 送 转 ， 

儿科 学 第 12 音 

内 科学 第 2 音 

药理 学 第 5 音 


“哮喘 "相关 主题 及 主题 信息 


Life Data 上 的 子 图 分 析 ) 来 对 现 有 的 图 谱 进行 优化 。 
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Research on the Construction of Clinical Medicine Course -knowledge Topic Graph 
Lu Quan'” Xie Yiyul Chen Jing Zhang han' Cui Haoran Nie Shuyuan 


! Center for Studies of Information Resources of Wuhan University, Wuhan 430072 
? Big Data Institute, Wuhan University, Wuhan 430072 

”School of Information Management, Central China Normal University, Wuhan 430079 

Abstract: | Purpose/significance | From the perspective of knowledge topics, this paper try to solve the problems of 
overlaps and “information island” between courses in the existing curriculum system design and teaching by establishing a 
comprehensive curriculum knowledge system. Thus, the professional knowledge services can be carried out effectively. 
[ Method/ process | This study takes the main courses of clinical medicine as the research object, based on medical thesis 
vocabulary, electronic textbooks ，electronic lesson plans and other medical education data, through the LDA model to 
deeply explore the knowledge topics in courses, and then using the correlation analysis method to reveal the fine -grained 
relationship between courses, knowledge topics and the courses and knowledge topics. Thus, a clinical medical course- 
knowledge topic graph is constructed. |[ Result/conclusion | The study constructs domain knowledge graph from the per- 
spective of professional curriculum system and knowledge subject. The results will help teaching managers, teachers and 
students master the professional knowledge system, and carry out knowledge -oriented teaching activities. Furthermore, It 
can promote the development of knowledge organization and services in the medical field and the development of smart 
medical education. 


Keywords: course-knowledge topic graph knowledge graph LDA correlation analysis clinical medicine 
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